机器学习:对发展中大脑成熟程度的脑电预测模型
点击上方蓝字关注“公众号”,即可获取更多精彩原创文章、学习资料
摘要:从童年到青春期,人类功能性大脑活动显著发展,本研究研究了脑电(EEG)是否能够准确预测儿童和青少年的年龄;此外,在较长时期内对于年龄过高或者过低的预测是否稳定,预测误差是否可以解释为个体大脑成熟水平;最后,确定了年龄预测误差是否是由遗传决定的。被试来自荷兰双胞胎登记(Netherlands Twin Register NTR; n = 836)和圣路易斯华盛顿大学(n=702),包含5、7、12、14、16、18岁,对其进行的纵向脑电研究:进行3分钟闭眼的静息状态EEG数据采集,儿童期为5-7岁和青春期为16-18岁,用1Hz宽的窗(1-24 Hz)计算功率,使用六折交叉验证的随机森林(random forest, RF)回归和相关向量机(relevance vector machine),使用RF获得最佳平均绝对预测误差(1.12岁),儿童期与青春期的分类达到了94%以上的准确性,预测误差在1.5-2.1岁期间(0.53 <r <0.74)中度/高度稳定,并且受遗传因素(遗传率在42%和79%之间)的显著影响。研究结果表明,低成本脑电记录的年龄预测与磁共振成像的准确度相当,儿童和青少年表现出稳定的高于或低于实际年龄意味着某些被试具有稳定的大脑活动模式,因此可以反映个体的大脑成熟水平,这种预测误差是通过遗传而来到,表明基因是功能性大脑活动成熟水平的基础,建议基于EEG的年龄预测可用于跟踪典型发育中的儿童、早产儿和神经发育障碍儿童的神经发育。
关键词:年龄预测,大脑年龄,大脑成熟程度,发展,脑电,机器学习
背景
大脑神经组织程度从童年到青少年具有显著的发展,这种组织发展会在大脑电生理活动中显示出来,例如,在童年期,theta波(4-7Hz)占主导,随后急剧下降,童年到青春期α波频率由8Hz增加至10Hz等等,并且伴随着行为表现以及认知水平的发展。有研究表明,核磁共振影像能够在结构上衡量大脑成熟程度,本研究的目的为探究EEG是否能够估计被试的年龄,对于实际年龄的预测误差是否能够通过遗传加以解释。
研究方法
被试
两个发展的大样本数据集,对双胞胎儿童进行脑电记录,第一个数据集是NTR (N = 836),记录两组儿童的脑电:对5岁、7岁以及16岁、18岁被试进行测量;第二个数据集是圣路易斯华盛顿大学的一个纵向研究项目(GNASA,N=622)。
EEG处理
两个数据集均包含以下12导:F3/4/7/8, C3/4, P3/4/7/8, O1/2。滤波:1-30Hz,ICA去除眼电,将清理后的EEG数据划分为2s时间段,接下来,使用快速傅里叶变换将信号从时域转换到频域,得到的功率谱被分成1Hz的区间,范围从1-24Hz(24个区间)。
机器学习分析
使用三种机器学习的方法:随机森林(RF)、支持向量机(SVM)、相关向量机(RVM)。
随机森林:随机森林算法用于分类和回归,使用数据和特征的各种自举子样本(所谓的RF)创建大量决策树,为了基于属性对新数据向量进行分类,每个树给出一个分类,对分类树进行“投票”,从森林中选择得票最多的分类。回归模型也是类似的道理,只是每当决策低于或低于某个阈值时,另外为结果变量分配值。在这项研究中,决策树数量固定在500棵,预测因子的数量设定为40。
支持向量机:在分类SVM中,讲特征数据投影在高维空间上,然后使用具有共享参数的超平面分离分类组:如变量α控制模型参数的分布,超平面由支持向量形成,支持向量是关于类之间的分离并且接近决策边界的数据点,该监督方法旨在找到一个超平面,该超平面在支持向量中的数据点之间提供最大的剩余量,以至支持向量属于不同的类。
相关向量机:RVM是SVM的延伸,RVM利用贝叶斯方法来增加预测中的稀疏性,该方法利用高度相关的预测器帮助机器学习,使用概率测量来定义分离空间,它强加了一个明确的零均值高斯先验。相关向量由看起来更能代表类的样本形成,其远离分类器的决策边界,而SVM通常使用靠近决策边界的样本作为所谓的支持向量。与SVM相比,RVM的主要区别在于为每个参数引入了单独的超参数,而不是单个共享超参数。当关于这些超参数的证据最大化时,其中很大一部分进入无穷大并且在模型的预测中不起作用。因此,RVM是稀疏分类器,因为决策函数依赖于可比SVM的较少输入数据。通过减少过度拟合,这种稀疏性可以导致训练数据的更快性能和更一般化结果的结果,这可以减少交叉验证期间的误差。
预测准确性:预测准确性以几种方式确定:首先,用平均绝对误差,简单地定义为预测误差的总和除以记录/测量的数量;接下来,评估逐波预测的准确性,将中位数年龄与每个波预测中位数年龄进行了比较(NTR有4个波; GNASA有3个波);最后,评估预测年龄的纵向稳定性(波之间的相关性),即为基线被试的预测误差(估计的减去实际年龄)与随访时自身预测误差之间的相关性。
结果
机器学习模型预测结果
SVM回归与RF和RVM相比表现不佳,RF准确率达到93.9%,RVM准确率达到95.2%。在从儿童期到青春期的整个年龄范围内,RVM算法的平均绝对误差(MAE)为1.46年,RF算法的平均绝对误差较小,为1.22年。对于所有七个波(年龄为5、7、16和18岁的NTR数据以及年龄为12、14和16的WUSTL数据),将预测年龄波中位数与实际年龄中位数作图(如下图,红色[NTR] ]和绿色[WUSTL]点表示预测的中位数与实际年龄中位数之间的差异)。数据显示RF无法推断超出最小值(4.9岁)和最大实际年龄(18.5岁),从而导致有限的预测估计值,并且RF较低的MAE可能无法反映真实的预测精度(RF算法如下图左边所示)。
图 7个年龄组预测大脑年龄和实际年龄的比较,红色点为NTR数据集,绿色点为WUSTL数据集,左图为RF算法,右图为RVM算法。
RF特征贡献程度
尽管RVM在预测年龄时更好,但该算法会模糊一些重要的特征,因此为了研究每个特征对预测模型的贡献,仅使用RF回归进行了特征重要性分析,因为每个回归树中的随机特征选择允许每个特征获得特征重要性分数,结果如下图所示。
图 在对数转换之后,随机森林的特征重要性平均得分,并且对不同的大脑区域特征重要性分数进行平均。
图 对数变换随机森林(RF)在标准频率上重要性地形图(分别为:delta 1-3 Hz,theta 4-7 Hz,低alpha 8-9 Hz,高alpha 10-11 Hz,低beta14-18 Hz和高beta20-25Hz),该特征重要性以相对强度绘制。
总结
基于3分钟静息状态脑电记录可以高精度地估计大脑成熟水平,而磁共振成像研究中的儿童期与青春期分类准确度在75%至95%之间,基于脑电的分类准确度甚至更高(RVM> 95%),RF的平均预测误差为1.22岁,RVM的平均预测误差为1.46岁,仅略高于可比年龄组的MRI研究(1.1年)中获得的最低预测误差估计值。对射频特征重要性的分析表明,分类主要取决于低频功率,并且进一步值得注意的是时域的θ波,前额的低α波对大脑成熟程度分类的贡献。
参考文献
Vandenbosch, M. M. L. J. Z., Ent, D. van ’t, Boomsma, D. I., Anokhin, A. P., & Smit, D. J. A. (2019). EEG-based age-prediction models as stable and heritable indicators of brain maturational level in children and adolescents.Human Brain Mapping. doi:10.1002/hbm.24501
培训信息
科研服务
灌注数据处理服务
EEG/ERP数据处理服务
脑电数据预处理:使用EEGLAB对Neuroscan、Brain Products、EGI、ANT、Biosemi等主流脑电设备采集的脑电数据进行预处理。
ERP成分统计分析:提取ERP成分的波幅和潜伏期,并进行统计分析。
EEG频谱分析:使用傅里叶变换的方法计算脑电各个频段的功率,并进行统计分析;使用短时傅里叶变换、小波变换和希尔伯特变换的方法进行脑电时频分析(如ERD/ERS分析、试次间相位同步分析)。
基于sLORETA的脑电源分析:ERP成分源定位;特定频段EEG源定位;源空间的脑功能连通性分析。
功能连通性分析:使用相关、相干、相位锁定值和格兰杰因果分析研究电极之间功能连通性。
近红外数据处理服务
PET数据处理服务
功能磁共振数据处理
任务态激活脑区分析
任务态E-prime实验实
功能连接分析
局部一致性(ReHo)分析
低频振幅(ALFF/fALFF)分析
基于图论及ICA的脑网络分析
结构磁共振数据处理
基于VBM的灰白质分析
基于Freesurfer的皮层厚度分析
基于FSL的纤维束追踪
详情联系:13381109780(杨老师)